在本文中,我们研究了从许多嘈杂的随机线性测量值中恢复低级别基质的问题。我们考虑以下设置的设置,即基地矩阵的等级是未知的,并使用矩阵变量的过度指定的分组表示,其中全局最佳解决方案过拟合,并且与基础基础真相不符。然后,我们使用梯度下降和小的随机初始化解决了相关的非凸问题。我们表明,只要测量运算符能够满足受限的等轴测特性(RIP),其等级参数缩放具有地面真相矩阵等级,而不是使用过度指定的矩阵变量进行缩放,那么梯度下降迭代就会在特定的轨迹上朝向地面。 - 正确矩阵并在适当停止时获得了几乎信息理论上的最佳恢复。然后,我们提出了一种基于共同持有方法的有效的早期停止策略,并表明它可以检测到几乎最佳的估计量。此外,实验表明,所提出的验证方法也可以有效地用于图像恢复,并具有深层图像先验,从而使图像过度参与了深层网络。
translated by 谷歌翻译
代码生成旨在从自然语言描述中自动生成代码段。通常,主流代码生成方法依赖大量的配对培训数据,包括自然语言描述和代码。但是,在某些特定领域的情况下,很难为代码生成建立如此大的配对语料库,因为没有直接可用的配对数据,并且需要大量精力来手动编写代码说明来构建高质量的培训数据集。由于培训数据有限,生成模型不能经过良好的训练,并且可能过于拟合,从而使该模型对现实世界的使用不满意。为此,在本文中,我们提出了一种任务增强方法,该方法通过扩展原始的Tranx模型来支持suptoken级代码生成,将域知识通过辅助任务和亚键入tranx模型纳入代码生成模型。为了验证我们提出的方法,我们收集了一个真实的代码生成数据集并在其上进行实验。我们的实验结果表明,亚句级Tranx模型在我们的数据集中优于原始Tranx模型和变压器模型,并且在我们的任务增强方法的帮助下,Subtoken-Tranx的确切匹配精度可显着提高12.75 \%。多个代码类别的模型性能满足了工业系统应用程序的要求。我们提出的方法已由阿里巴巴的\ emph {bizcook}平台采用。据我们所知,这是在工业开发环境中采用的第一个领域代码生成系统。
translated by 谷歌翻译
照明是摄影的决定因素,它影响了情感的样式,表达甚至图像的质量。实际上,创建或找到令人满意的照明条件是费力且耗时的,因此开发一种技术来操纵图像中的照明是非常有价值的。尽管以前的作品已经基于重新保留图像的物理观点探索了技术,但是对于生成合理的图像,必须进行广泛的监督和先验知识,从而限制了这些作品的概括能力。相比之下,我们采用图像到图像翻译的观点,并暗中合并了传统物理观点的观念。在本文中,我们提出了一个照明感知网络(IAN),该网络遵循从层次采样到从单个图像中逐步重新重新效率的指导。此外,旨在近似物理渲染过程并提取光源的精确描述以进行进一步操作,旨在近似物理渲染过程。我们还引入了一个深度引导的几何编码器,以获取有价值的几何形状和与结构相关的表示,一旦深度信息可用。实验结果表明,我们提出的方法比以前的最先进方法产生更好的定量和定性重新确定结果。代码和模型可在https://github.com/nk-cs-zzl/ian上公开可用。
translated by 谷歌翻译
在本文中,我们旨在设计一种能够共同执行艺术,照片现实和视频风格转移的通用风格的转移方法,而无需在培训期间看到视频。以前的单帧方法对整个图像进行了强大的限制,以维持时间一致性,在许多情况下可能会违反。取而代之的是,我们做出了一个温和而合理的假设,即全球不一致是由局部不一致所支配的,并设计了应用于本地斑块的一般对比度连贯性损失(CCPL)。 CCPL可以在样式传输过程中保留内容源的连贯性,而不会降低样式化。此外,它拥有一种邻居调节机制,从而大大减少了局部扭曲和大量视觉质量的改善。除了其在多功能风格转移方面的出色性能外,它还可以轻松地扩展到其他任务,例如图像到图像翻译。此外,为了更好地融合内容和样式功能,我们提出了简单的协方差转换(SCT),以有效地将内容功能的二阶统计数据与样式功能保持一致。实验证明了使用CCPL武装时,所得模型对于多功能风格转移的有效性。
translated by 谷歌翻译
张量火车的分解因其高维张量的简洁表示,因此在机器学习和量子物理学中广泛使用,克服了维度的诅咒。交叉近似 - 从近似形式开发用于从一组选定的行和列中表示矩阵,这是一种有效的方法,用于构建来自其少数条目的张量的张量列器分解。虽然张量列车交叉近似在实际应用中取得了显着的性能,但迄今为止缺乏其理论分析,尤其是在近似误差方面的理论分析。据我们所知,现有结果仅提供元素近似精度的保证,这会导致扩展到整个张量时的束缚非常松。在本文中,我们通过提供精确测量和嘈杂测量的整个张量来保证准确性来弥合这一差距。我们的结果说明了选定子观察器的选择如何影响交叉近似的质量,并且模型误差和/或测量误差引起的近似误差可能不会随着张量的顺序而指数增长。这些结果通过数值实验来验证,并且可能对高阶张量的交叉近似值(例如在量子多体状态的描述中遇到的)具有重要意义。
translated by 谷歌翻译
大肠息肉分类是一项关键的临床检查。为了提高分类精度,大多数计算机辅助诊断算法通过采用窄带成像(NBI)识别结直肠息肉。但是,NBI通常在实际诊所场景中缺少利用率,因为该特定图像的获取需要在使用白光(WL)图像检测到息肉时手动切换光模式。为了避免上述情况,我们提出了一种新的方法,可以通过进行结构化的跨模式表示一致性直接实现准确的白光结肠镜图像分类。实际上,一对多模式图像,即NBI和WL,被送入共享变压器中以提取分层特征表示。然后,采用了一种新颖的设计空间注意模块(SAM)来计算从多层次的类令牌和贴片令牌%的相似性,以获得特定模态图像。通过将配对NBI和WL图像的类令牌和空间注意图对齐,变压器可以使上述两种模式保持全局和局部表示一致性。广泛的实验结果说明了所提出的方法的表现优于最近的研究,从而通过单个变压器实现了多模式预测,同时仅在使用WL图像时大大提高了分类精度。
translated by 谷歌翻译
尽管近年来从CT/MRI扫描中自动腹部多器官分割取得了很大进展,但由于缺乏各种临床方案的大规模基准,对模型的能力的全面评估受到阻碍。收集和标记3D医学数据的高成本的限制,迄今为止的大多数深度学习模型都由具有有限数量的感兴趣或样品器官的数据集驱动,这仍然限制了现代深层模型的力量提供各种方法的全面且公平的估计。为了减轻局限性,我们提出了AMO,这是一个大规模,多样的临床数据集,用于腹部器官分割。 AMOS提供了从多中心,多供应商,多模式,多相,多疾病患者收集的500 CT和100次MRI扫描,每个患者均具有15个腹部器官的体素级注释,提供了具有挑战性的例子,并提供了挑战性的例子和测试结果。在不同的目标和场景下研究健壮的分割算法。我们进一步基准了几种最先进的医疗细分模型,以评估此新挑战性数据集中现有方法的状态。我们已公开提供数据集,基准服务器和基线,并希望激发未来的研究。信息可以在https://amos22.grand-challenge.org上找到。
translated by 谷歌翻译
从\ emph {nocedended}点云中重建3D几何形状可以使许多下游任务受益。最近的方法主要采用神经网络的神经形状表示,以代表签名的距离字段,并通过无签名的监督适应点云。但是,我们观察到,使用未签名的监督可能会导致严重的歧义,并且通常会导致\ emph {意外}故障,例如在重建复杂的结构并与重建准确的表面斗争时,在自由空间中产生不希望的表面。为了重建一个更好的距离距离场,我们提出了半签名的神经拟合(SSN拟合),该神经拟合(SSN拟合)由半签名的监督和基于损失的区域采样策略组成。我们的关键见解是,签名的监督更具信息性,显然可以轻松确定对象之外的区域。同时,提出了一种新颖的重要性抽样,以加速优化并更好地重建细节。具体而言,我们将对象空间弹并分配到\ emph {sign-newand}和\ emph {sign-unawern}区域,其中应用了不同的监督。此外,我们根据跟踪的重建损失自适应地调整每个体素的采样率,以便网络可以更多地关注复杂的拟合不足区域。我们进行了广泛的实验,以证明SSN拟合在多个数据集的不同设置下实现最新性能,包括清洁,密度变化和嘈杂的数据。
translated by 谷歌翻译
人类对象相互作用(HOI)识别的关键是推断人与物体之间的关系。最近,该图像的人类对象相互作用(HOI)检测取得了重大进展。但是,仍然有改善视频HOI检测性能的空间。现有的一阶段方法使用精心设计的端到端网络来检测视频段并直接预测交互。它使网络的模型学习和进一步的优化更加复杂。本文介绍了空间解析和动态时间池(SPDTP)网络,该网络将整个视频作为时空图作为人类和对象节点作为输入。与现有方法不同,我们提出的网络通过显式空间解析预测交互式和非相互作用对之间的差异,然后执行交互识别。此外,我们提出了一个可学习且可区分的动态时间模块(DTM),以强调视频的关键帧并抑制冗余帧。此外,实验结果表明,SPDTP可以更多地关注主动的人类对象对和有效的密钥帧。总体而言,我们在CAD-1220数据集和某些ELSE数据集上实现了最先进的性能。
translated by 谷歌翻译
The click-through rate (CTR) prediction task is to predict whether a user will click on the recommended item. As mind-boggling amounts of data are produced online daily, accelerating CTR prediction model training is critical to ensuring an up-to-date model and reducing the training cost. One approach to increase the training speed is to apply large batch training. However, as shown in computer vision and natural language processing tasks, training with a large batch easily suffers from the loss of accuracy. Our experiments show that previous scaling rules fail in the training of CTR prediction neural networks. To tackle this problem, we first theoretically show that different frequencies of ids make it challenging to scale hyperparameters when scaling the batch size. To stabilize the training process in a large batch size setting, we develop the adaptive Column-wise Clipping (CowClip). It enables an easy and effective scaling rule for the embeddings, which keeps the learning rate unchanged and scales the L2 loss. We conduct extensive experiments with four CTR prediction networks on two real-world datasets and successfully scaled 128 times the original batch size without accuracy loss. In particular, for CTR prediction model DeepFM training on the Criteo dataset, our optimization framework enlarges the batch size from 1K to 128K with over 0.1% AUC improvement and reduces training time from 12 hours to 10 minutes on a single V100 GPU. Our code locates at https://github.com/bytedance/LargeBatchCTR.
translated by 谷歌翻译